Załadowanie danych

Wyznaczenie optymalnej liczby klastrów

KMeans

Metoda łokcia

Przybliżamy do dokładniejszego zbadania region 25-50, ponieważ jest w nim największe załamanie.

Silhouette score

Davies-Bouldin score

Na podstawie tych danych, stwierdziliśmy, że k=45 jest najlepszą liczbą zgrupowań dla tych danych.

Aglomerative clustering

Silhouette score

Sprawdzamy, czy n=47 nie jest tylko lokalnym minimum, poprzedzającym znacząco lepsze minimum, obliczając score dla n w zakresie 46-56

Silhouette score

Davies-Bouldin score

W obu przypadkach 47 to n dla którego zostaje osiągnięty najlepszy wynik

OPTICS performance

OPTICS osiąga słabe wyniki na poprzednich testach, ale nawet w przypadku osiągnięcia lepszych wyników należałoby go odrzucić, co widać na poniższych wykresach porównujących otrzymane zgrupowania:

Bardzo dużo punktów nie zostało zgrupowanych przez OPTICS, przez co nie jest on dobrym algorytmem w tym przypadku

PCA

Poprzednie wizualizacje pokazywały interesujące rezultaty na wykresie PCA, więc postanowiliśmy to porównać z naszymi modelami.

Widać, że widoczne 10 'klas' otrzymanych z PCA nie oddaje pełnego obrazu sytuacji.

Żeby PCA sensownie obrazowało dane, musiałoby mieć przynajmniej 40 wymiarów, co nie jest wizualizowalne.